【Day 14】 Decision Tree(決策樹)

2023 iThome 鐵人賽

DAY 14

AI & Data

深入探索AI模型系列第 14 篇

15th鐵人賽

mingchang

2023-09-14 00:06:58

588 瀏覽

分享至

決策樹的運作方式類似於人類在對於一件事情的決策方式，我們可以透過下方這張圖來理解決策樹是如何運作的。一開始，我們先看看今天是平日還是假日，如果是平日，接著就看心情好不好決定要不要出門；如果是假日就看天氣好不好決定要不要出門。

從上面的例子來看，是不是非常好理解呢？Decision Tree運作的方式就跟我們平常做決定時的思考方式非常類似，差別只在於當決策過程大時，人腦會很難反應過來，而電腦就可以清楚地根據規則來做出決定。

接下來我們要來理解決策樹用什麼方法去決定他的分類條件的，這邊介紹一種常用的分類依據—entropy（熵）。entropy是一種用來判斷這個分類依據好不好的方法，他的數值會介於0跟1之間，越接近0則代表這個分類分得越好、資料被分的統一，越接近1則代表分的越不好、資料種類繁雜。以下是entropy的計算公式，p代表成功(True)的機率、q代表失敗(False)的機率。

$entropy = -p * log_2p - q * log_2q$

我們直接用一開始的例子來看看怎麼實際計算entropy的。假設一開始有十次決定出門和十次決定不出門的資料，如果我們用是假日還是平日去分類的話，有4個不出門和6個出門被分到平日、6個不出門和4個出門分到假日，那麼平日的entropy就會是 -(4 / 10) * log2(4 / 10) – (6 / 10) * log2(6 / 10) = 0.9852，而假日的entropy則是 –(6 / 10) * log2(6 / 10) - (4 / 10) * log2(4 / 10) = 0.9852。得出結果過後還要加權算出最後的entropy，所以用假日還是平日去分類的entropy為(10 / 20) * 0.9852 + (10 / 20) * 0.9852 = 0.9852。